Zero-Shot Cot (Chain-of-Thought, 연쇄사고추론, 2022-05-24)

2025-12-07, G30DR

1. 서론: 인공지능의 인지적 도약과 제로샷 추론의 등장

현대 인공지능 연구, 특히 자연어 처리(NLP) 분야는 거대 언어 모델(Large Language Models, LLMs)의 출현과 함께 급격한 패러다임의 전환을 맞이했다. 수십억 개에서 수천억 개의 파라미터를 가진 이 모델들은 방대한 텍스트 데이터를 학습하여 단순한 언어 생성을 넘어 번역, 요약, 질의응답 등 다양한 작업에서 인간 수준의 유창함을 보여주었다.1 초기 LLM 연구는 주로 사전 학습(Pre-training) 후 특정 작업에 맞춰 모델의 가중치를 미세 조정(Fine-tuning)하는 방식에 의존했으나, GPT-3와 같은 모델의 등장은 별도의 파라미터 업데이트 없이 자연어 프롬프트(Prompt)만으로 작업을 수행하는 ’인컨텍스트 러닝(In-context Learning)’의 시대를 열었다.2

그러나 이러한 발전에도 불구하고, 산술 연산, 기호 논리, 상식 추론과 같이 다단계의 논리적 사고가 요구되는 복합 추론(Multi-step Reasoning) 과제는 오랫동안 LLM의 아킬레스건으로 남아 있었다. 인간의 인지 과정에 비유하자면, 직관적이고 빠른 ‘시스템 1(System 1)’ 사고에는 능했으나, 분석적이고 순차적인 ‘시스템 2(System 2)’ 사고 능력은 부족했던 것이다.1 이를 극복하기 위해 Wei et al. (2022)은 문제 해결 과정을 단계별 예시로 제공하는 ‘사고 사슬(Chain-of-Thought, CoT)’ 프롬프팅을 제안하여 획기적인 성능 향상을 이끌어냈다. 하지만 이 방식은 작업마다 정교한 예시(Demonstration)를 인간이 직접 작성해야 한다는 퓨샷(Few-Shot) 방식의 한계를 지니고 있었다.1

이러한 맥락에서 Kojima et al. (2022)이 제안한 **제로샷 사고 사슬(Zero-Shot Chain-of-Thought, Zero-Shot CoT)**은 LLM의 잠재력을 재평가하게 만든 중요한 발견이었다. 연구진은 예시 없이 단순히 “단계별로 생각해보자(Let’s think step by step)“라는 트리거 문구를 추가하는 것만으로 모델이 스스로 추론 과정을 생성하고 정답률을 비약적으로 높일 수 있음을 입증했다.2 본 보고서는 제로샷 CoT의 이론적 배경과 작동 메커니즘, 퓨샷 방식과의 비교 분석, 다양한 최적화 기법, 그리고 2025년 현재 추론 특화 모델로의 진화 과정을 심층적으로 분석하여, 이 기술이 인공지능의 인지 능력 확장에 미치는 영향을 포괄적으로 규명한다.

2. 제로샷 사고 사슬의 이론적 기초와 메커니즘

2.1 제로샷 추론자(Zero-Shot Reasoners)로서의 LLM

Kojima et al. (2022)의 연구 “Large Language Models are Zero-Shot Reasoners“는 LLM이 본질적으로 훌륭한 제로샷 추론 능력을 갖추고 있음을 시사한다.2 기존의 표준 제로샷(Standard Zero-Shot) 프롬프팅이 질문 $Q$ 에 대해 즉각적인 정답 $A$ 를 요구하는 구조( $Q \rightarrow A$ )였다면, 제로샷 CoT는 모델에게 답변 도출에 앞서 사고 과정(Rationale)을 먼저 생성하도록 강제하는 구조( $Q \rightarrow \text{Reasoning} \rightarrow A$ )를 취한다.

이 접근법의 핵심은 모델이 학습한 방대한 데이터 내에 논리적 문제 해결 패턴이 이미 존재한다는 전제에 있다. 인터넷상의 수많은 텍스트 데이터(교과서, 튜토리얼, 코드 등)는 문제 해결 과정을 단계별로 설명하는 형식을 취하고 있다. 따라서 “Let’s think step by step“이라는 프롬프트는 모델의 내부 상태를 이러한 ‘설명 모드’ 혹은 ’추론 모드’로 전환시키는 스위치 역할을 수행한다.2 이는 LLM의 능력이 단순히 패턴 매칭에 그치지 않고, 적절한 문맥적 단서가 주어졌을 때 광범위한 인지 능력(Broad Cognitive Capabilities)을 발현할 수 있음을 의미한다.5

2.2 2단계 프롬프팅(Two-Stage Prompting) 프로세스

제로샷 CoT는 논리적 일관성을 확보하고 최종 정답을 명확히 추출하기 위해 일반적으로 두 단계의 파이프라인을 따른다.6

1단계: 추론 생성 (Reasoning Extraction)

입력: 사용자의 질문 $Q$ + 트리거 문구 $T_1$ (“Let’s think step by step.”)
동작: 모델은 이 입력에 반응하여 문제 해결을 위한 중간 논리 단계인 추론 경로(Chain of Thought) $R$ 을 생성한다. 예를 들어 수학 문제의 경우, “먼저 사과 10개에서 2개를 뺐으므로 8개가 남습니다. 그 다음…“과 같이 자연어로 풀이 과정을 서술한다.2

2단계: 답변 추출 (Answer Extraction)

입력: 원래 질문 $Q$ + 모델이 생성한 추론 $R$ + 답변 트리거 문구 $T_2$ (“Therefore, the answer is”)
동작: 모델은 자신의 추론 과정을 요약하거나 결론을 도출하여 최종 정답 $A$ 를 생성한다. 이 단계는 생성된 긴 텍스트에서 핵심 결과만을 정제된 포맷으로 추출하는 역할을 한다.

이러한 구조는 모델이 자유롭게 사고를 전개할 수 있는 공간(1단계)과 이를 수렴시키는 공간(2단계)을 분리함으로써, 복잡한 문제에서도 높은 정답률을 달성하게 한다.

2.3 비계 설정 생성(Scaffolded Generation)과 이론적 분석

제로샷 CoT가 작동하는 원리를 이론적으로 분석한 연구들은 이를 ’비계 설정(Scaffolding)’의 관점에서 설명한다.8 LLM은 질문에 대한 직접적인 정답 예측(Direct Prediction)보다는, 관련된 중간 변수(Local Variables)나 단계적 논리를 먼저 생성할 때 다음 토큰 예측의 정확도가 높아진다.

국소적 구조(Local Structure): 관련된 정보들이 텍스트 상에서 서로 인접하게 배치될 때 모델의 성능이 향상된다. 제로샷 CoT는 문제 해결에 필요한 중간 계산 결과나 논리적 연결 고리를 명시적으로 생성하여 텍스트 상에 배치함으로써, 모델이 다음 단계를 예측하는 데 필요한 문맥적 단서를 스스로 제공하게 한다.8
정보 흐름(Information Flow): 최근 연구인 IAP(Instance-Adaptive Prompting) 분석에 따르면, 제로샷 CoT 과정에서 정보는 질문에서 프롬프트로, 그리고 질문에서 근거(Rationale)로 흐르며 최종 답변에 영향을 미친다. 성공적인 추론을 위해서는 프롬프트가 질문의 의미론적 정보를 적절히 포착하고, 생성된 근거가 질문의 정보를 충분히 집계해야 한다.9 이는 프롬프트가 단순한 명령어가 아니라 정보 처리의 가이드라인 역할을 함을 시사한다.

3. 제로샷 CoT와 퓨샷 CoT의 비교 및 성능 분석

3.1 성능 벤치마크 비교

Kojima et al. (2022)의 실험 결과에 따르면, 제로샷 CoT는 다양한 추론 벤치마크에서 표준 제로샷 방식을 압도하며, 경우에 따라 퓨샷 CoT에 근접하는 성능을 보여준다.

벤치마크 (Benchmark)	과제 유형 (Task Type)	표준 제로샷 (Standard Zero-Shot)	제로샷 CoT (Zero-Shot CoT)	성능 향상 (Gain)
MultiArith	산술 추론	17.7%	78.7%	+61.0%p
GSM8K	수학 단어 문제	10.4%	40.7%	+30.3%p
SVAMP	산술 추론 (변형)	58.7%	63.4%	+4.7%p
StrategyQA	상식 추론	52.3%	61.1%	+8.8%p
Coin Flip	기호 논리	50.0% (무작위)	90.4%	+40.4%p

데이터 출처: Kojima et al. (2022) 2

위 표에서 볼 수 있듯이, 특히 MultiArith와 GSM8K와 같이 다단계 계산이 필요한 산술 문제에서 성능 향상 폭이 매우 크다. 이는 제로샷 CoT가 모델의 시스템 2적 사고를 효과적으로 활성화함을 방증한다.

3.2 퓨샷 CoT와의 트레이드오프 분석

Wei et al. (2022)의 퓨샷 CoT와 Kojima et al. (2022)의 제로샷 CoT는 각각 명확한 장단점을 지닌다. 이를 이해하는 것은 실제 어플리케이션 구축 시 전략적 선택의 기준이 된다.

정확도 대 편의성: 퓨샷 CoT는 작업별로 최적화된 예시를 제공하므로 일반적으로 제로샷 CoT보다 높은 정확도를 보인다. 그러나 이는 고품질의 예시를 인간이 직접 작성해야 하는 비용(Human Effort)을 수반한다.3 반면 제로샷 CoT는 작업 불가지론적(Task-agnostic)인 단일 프롬프트로 다양한 도메인에 즉시 적용할 수 있는 범용성과 편의성을 제공한다.2
토큰 비용(Token Cost): 퓨샷 CoT는 입력 프롬프트에 긴 예시들을 포함해야 하므로 API 호출 시 입력 토큰 비용이 선형적으로 증가한다.11 반면 제로샷 CoT는 최소한의 트리거 문구만 추가하므로 입력 비용이 매우 낮다. 다만, 두 방식 모두 출력 토큰(추론 과정 생성)에 대한 비용은 발생한다. 비용 효율성이 중요한 대규모 서비스나 프로토타이핑 단계에서는 제로샷 CoT가 유리하다.
최신 모델에서의 경향: 흥미롭게도 2025년 최신 연구(Guo et al., 2025 등)에 따르면, 모델의 성능이 고도화될수록 퓨샷 예시가 추론 성능 자체를 향상시키기보다는 출력 형식을 인간의 기대에 맞게 정렬(Alignment)하는 역할에 그친다는 분석이 있다.13 이는 강력한 모델일수록 제로샷 CoT만으로도 충분히 높은 추론 능력을 발휘할 수 있음을 시사한다.

4. 제로샷 CoT의 진화와 최적화 기법

단순한 “Let’s think step by step“은 강력하지만 만능은 아니다. 연구자들은 제로샷 CoT의 한계(계산 오류, 논리적 비약 등)를 보완하기 위해 다양한 파생 기법과 최적화 전략을 개발했다.

4.1 Auto-CoT: 자동화된 예시 생성

Zhang et al. (2022)은 퓨샷 CoT의 높은 성능과 제로샷 CoT의 편의성을 결합한 Auto-CoT를 제안했다.3

문제 의식: 수동으로 예시를 작성하는 것은 번거롭고 실수할 가능성이 있다.
메커니즘: Auto-CoT는 LLM 자체를 사용하여 퓨샷 예시를 생성한다.

질문 클러스터링(Question Clustering): 훈련 데이터의 질문들을 임베딩(Embedding)하여 의미적으로 유사한 그룹으로 클러스터링한다. 이는 다양한 유형의 질문을 예시에 포함시키기 위함이다.
예시 생성(Demonstration Sampling): 각 클러스터의 대표 질문에 대해 제로샷 CoT(“Let’s think step by step”)를 수행하여 질문-추론-답변 쌍을 생성한다.
필터링 및 구성: 생성된 예시 중 단순하거나 오류 가능성이 낮은 것을 선별하여 최종 퓨샷 프롬프트로 사용한다.

결과: Auto-CoT는 인간의 개입 없이도 수동으로 작성된 퓨샷 CoT와 대등하거나 더 우수한 성능을 달성했으며, 잘못된 추론 체인이 생성될 위험을 다양성(Diversity) 확보를 통해 완화했다.3

4.2 계획 및 해결 (Plan-and-Solve) 프롬프팅

Wang et al. (2023)은 제로샷 CoT가 겪는 오류를 세 가지로 분류했다: (1) 계산 오류(Calculation Errors), (2) 단계 누락(Missing-step Errors), (3) 의미 오해(Semantic Misunderstanding Errors).15 이를 해결하기 위해 Plan-and-Solve (PS) 프롬프팅을 제안했다.

PS 프롬프트: “Let’s think step by step” 대신, “문제를 해결하기 위한 계획을 세우고, 그 계획에 따라 하위 작업을 수행하라(Devise a plan… and carry out the subtasks)“는 지시를 내린다.
PS+ 프롬프트: PS에 더해 “변수를 추출하라”, “중간 계산을 수행하라“와 같은 구체적인 지침을 추가한다.
성과: 이 방식은 모델이 무작정 추론을 시작하는 것이 아니라, 전체적인 구조를 먼저 설계하게 함으로써 단계 누락 오류를 획기적으로 줄였다. 실험 결과 GPT-3에서 제로샷 CoT를 크게 앞서고 8-shot CoT에 필적하는 성능을 보였다.15

4.3 OPRO: 프롬프트 최적화 (Optimization by PROmpting)

Google DeepMind의 Yang et al. (2023)은 LLM을 최적화 도구(Optimizer)로 활용하여 인간이 생각하기 힘든 최적의 제로샷 프롬프트를 탐색하는 OPRO 프레임워크를 개발했다.18

발견된 최적 프롬프트: 연구 결과, “Take a deep breath and work on this problem step-by-step (심호흡을 하고 이 문제를 단계별로 풀어보자)“와 같은 감성적이고 구체적인 프롬프트가 기존의 “Let’s think step by step“보다 GSM8K에서 더 높은 정확도를 기록했다.19
의의: 이는 프롬프트가 고정된 불변의 진리가 아니라, 모델의 학습 데이터 분포와 특성에 따라 최적화되어야 하는 변수임을 보여준다. OPRO는 이러한 최적화를 자동화하여 인간 직관의 한계를 넘어선다.

5. 제로샷 CoT의 한계와 도전 과제

제로샷 CoT는 혁신적이지만, 실무 적용 시 반드시 고려해야 할 내재적 한계와 위험 요소를 안고 있다.

5.1 환각(Hallucination)과 추론 오류의 유형

CoT는 모델이 더 많은 텍스트를 생성하도록 유도하므로, 역설적으로 사실이 아닌 정보를 그럴듯하게 꾸며내거나 논리적 오류를 범할 기회(Surface Area) 또한 증가시킨다.21

결함 반복(Flaw Repetition): 모델이 잘못된 논리적 루프에 갇혀, 의미적으로 유사한 잘못된 생각들을 반복하는 현상이다.23
생각-답변 불일치(Think-Answer Mismatch): 올바른 추론 과정을 전개했음에도 불구하고 최종 답변은 틀리거나, 반대로 틀린 논리에서 우연히 정답을 도출하는 경우다. 이는 모델이 추론 과정을 논리적 도구가 아니라 단순한 텍스트 생성 과제로 처리할 때 발생한다.23
지식 검색 실패: 모델 내부 파라미터에 정답이 존재함에도 불구하고, 긴 추론 과정(Context Length Limit)으로 인해 정보를 적시에 인출하지 못하거나 문맥을 잃어버리는 현상이다.23

5.2 토큰 비용과 지연 시간 (Token Tax & Latency)

제로샷 CoT는 답변 생성 시 긴 사고 과정을 포함하므로, 단답형 제로샷에 비해 출력 토큰 수가 크게 증가한다. 이는 API 비용 상승과 응답 속도 저하로 직결된다.11

비용 분석: 예를 들어 GPT-4o와 같은 모델 사용 시, 단순 답변이 35토큰 소요된다면 제로샷 CoT나 퓨샷 CoT를 적용할 경우 수백 토큰 이상이 소요될 수 있다. 이는 대규모 트래픽을 처리하는 서비스에서는 막대한 비용 부담(Token Efficiency Trap)이 될 수 있다.12
전략적 대응: 따라서 모든 쿼리에 CoT를 적용하기보다는, 문제의 난이도를 분류하여 복잡한 추론이 필요한 경우에만 선택적으로 CoT를 활성화하는 하이브리드 전략이 요구된다.11

5.3 모델 규모 의존성 (Scale Dependence)

초기 연구들은 CoT의 이점이 모델 크기가 약 100B(1,000억) 파라미터를 넘을 때 비로소 발현되는 ’창발적 능력(Emergent Ability)’이라고 분석했다.1 작은 모델(예: 7B 이하)에서는 CoT를 적용할 경우 오히려 비논리적인 문장을 생성하여 성능이 하락하는 경향이 있었다.25 그러나 최근에는 작은 모델에서도 고품질의 CoT 데이터로 증류(Distillation)하거나 미세 조정하여 추론 능력을 이식하려는 연구가 활발히 진행되고 있다.13

6. 최신 연구 동향 (2024-2025) 및 미래 전망

2024년과 2025년의 연구 흐름은 단순한 프롬프팅 기법을 넘어, 모델 아키텍처와 학습 과정 자체에 CoT를 내재화하는 방향으로 진화하고 있다.

6.1 추론 특화 모델의 부상: OpenAI o1과 DeepSeek-R1

최근 공개된 OpenAI의 o1 시리즈나 DeepSeek-R1과 같은 모델들은 ’추론 모델(Reasoning Models)’이라는 새로운 범주를 형성하고 있다.13

내재적 사고 사슬 (Implicit CoT): 이 모델들은 사용자가 “단계별로 생각하라“고 명시하지 않아도, 내부적으로 사고 과정을 거친 후 답변을 출력하도록 설계되었다. 강화학습(Reinforcement Learning)을 통해 모델은 정답을 맞히는 것뿐만 아니라, 올바른 사고 과정을 생성하도록 훈련받는다.26
테스트 타임 컴퓨트(Test-time Compute): OpenAI o1의 경우, 추론 시간을 길게 가질수록(더 많이 생각할수록) 성능이 지속적으로 향상되는 결과를 보여주었다. 이는 모델 학습뿐만 아니라 추론 단계에서의 연산 자원 투입이 성능의 핵심 변수가 됨을 시사한다.26
제로샷의 표준화: 이러한 모델들에서 제로샷 CoT는 선택 옵션이 아니라 기본 동작 방식(Default Behavior)이 된다. 연구에 따르면, 이러한 고성능 모델에서 퓨샷 예시는 추론 능력 증대보다는 출력 포맷을 맞추는 용도로 그 역할이 축소되고 있다.13

6.2 다국어 및 멀티모달 확장

한국어 LLM과 AZPS: 영어 중심의 연구를 넘어, 한국어 등 다국어 모델에서의 제로샷 CoT 최적화도 진행 중이다. AZPS(Auto-enhanced Zero-shot Prompt Strategy) 연구는 한국어 모델을 포함한 다양한 LLM에서 자동으로 최적의 제로샷 프롬프트를 검색하고 적용하는 방법을 제안하여, 언어적 특성에 따른 성능 격차를 줄이고 있다.27
멀티모달 CoT: 텍스트와 이미지를 동시에 처리하는 LMM(Large Multimodal Models)에서도 제로샷 CoT가 적용된다. SLCoT(Strengths-Leverage CoT)와 같은 기법은 이미지를 분석하여 장면 그래프(Scene Graph)를 추출하고, 언어 모델이 이를 바탕으로 추론하는 협업 구조를 통해 시각적 추론(Visual Reasoning) 능력을 강화한다.29

7. 결론 및 전략적 제언

제로샷 사고 사슬(Zero-Shot CoT)은 거대 언어 모델이 단순한 확률적 앵무새를 넘어 논리적 문제 해결 도구로 진화하는 데 결정적인 역할을 한 기술이다. Kojima et al. (2022)의 발견은 “Let’s think step by step“이라는 단순한 문장이 수천억 파라미터 속에 잠재된 고차원적 인지 능력을 깨울 수 있음을 보여주었다. 이후 Auto-CoT, Plan-and-Solve, OPRO 등으로 이어진 기술의 진화는 프롬프팅을 정교한 엔지니어링의 영역으로 격상시켰다.

산업 및 연구계를 위한 제언:

프로토타이핑의 표준: 새로운 AI 기능을 개발할 때, 복잡한 퓨샷 예시를 구축하기 전 제로샷 CoT를 통해 모델의 베이스라인 성능을 우선적으로 검증하는 것이 효율적이다.
비용-성능 최적화 전략: 실서비스 적용 시에는 토큰 비용과 지연 시간을 고려하여, 단순 쿼리에는 표준 제로샷을, 복합 추론에는 제로샷 CoT나 추론 특화 모델(o1 등)을 선별적으로 사용하는 라우팅(Routing) 전략이 필수적이다.
프롬프트의 자동화: OPRO와 같은 연구 결과는 인간의 직관보다 알고리즘에 의한 최적화가 더 우수할 수 있음을 시사한다. 향후 프롬프트 엔지니어링은 인간의 수작업에서 자동화된 최적화 프로세스로 전환될 것이다.

결론적으로, 제로샷 CoT는 AI가 인간의 사고 방식을 모방하고 내재화하는 과정의 핵심 메커니즘이다. 모델이 더욱 거대해지고 추론 능력이 내재화될수록, 이 기술은 명시적인 프롬프팅 기법을 넘어 AGI(인공일반지능)를 향한 인지 아키텍처의 기본 구성 요소로 자리 잡을 것이다.

8. 참고 자료

Large Language Models are Zero-Shot Reasoners - OpenReview, https://openreview.net/pdf?id=e2TBb5y0yFf
Large Language Models are Zero-Shot Reasoners - arXiv, https://arxiv.org/pdf/2205.11916
Chain-of-Thought Prompting | Prompt Engineering Guide, https://www.promptingguide.ai/techniques/cot
Hint of Thought prompting: an explainable and zero-shot approach to reasoning tasks with LLMs - arXiv, https://arxiv.org/html/2305.11461v7
Large Language Models are Zero-Shot Reasoners - arXiv, https://arxiv.org/abs/2205.11916
[Quick Review] Large Language Models are Zero-Shot Reasoners - Liner, https://liner.com/review/large-language-models-are-zeroshot-reasoners
On Second Thought, Let’s Not Think Step by Step! Bias and Toxicity in Zero-Shot Reasoning - Stanford HCI Group, https://hci.stanford.edu/publications/2023/shaikh-stepbystep.pdf
Why think step by step? Reasoning emerges from the locality of experience | OpenReview, https://openreview.net/forum?id=rcXXNFVlEn¬eId=rtyPLznfZE
[2409.20441] Instance-adaptive Zero-shot Chain-of-Thought Prompting - arXiv, https://arxiv.org/abs/2409.20441
Zero-Shot Chain-of-Thought Prompting - Emergent Mind, https://www.emergentmind.com/topics/zero-shot-chain-of-thought-cot-prompting
8 Chain-of-Thought Techniques To Fix Your AI Reasoning | Galileo, https://galileo.ai/blog/chain-of-thought-prompting-techniques
Token Efficiency Traps: The Hidden Costs of Zero-Shot vs. Few-Shot Prompting, https://dev.to/tawe/token-efficiency-traps-the-hidden-costs-of-zero-shot-vs-few-shot-prompting-5897
Revisiting Chain-of-Thought Prompting: Zero-shot Can Be Stronger than Few-shot - arXiv, https://arxiv.org/html/2506.14641
[2210.03493] Automatic Chain of Thought Prompting in Large Language Models - arXiv, https://arxiv.org/abs/2210.03493
[2305.04091] Plan-and-Solve Prompting: Improving Zero-Shot Chain-of-Thought Reasoning by Large Language Models - arXiv, https://arxiv.org/abs/2305.04091
Plan-and-Solve Prompting: Improving Zero-Shot Chain-of-Thought Reasoning by Large Language Models - Singapore Management University, https://smusg.elsevierpure.com/en/publications/plan-and-solve-prompting-improving-zero-shot-chain-of-thought-rea
Plan-and-Solve Prompting: Improving Zero-Shot Chain-of-Thought Reasoning by Large Language Models - ResearchGate, https://www.researchgate.net/publication/370604390_Plan-and-Solve_Prompting_Improving_Zero-Shot_Chain-of-Thought_Reasoning_by_Large_Language_Models
Teach Better or Show Smarter? On Instructions and Exemplars in Automatic Prompt Optimization - NIPS papers, https://proceedings.neurips.cc/paper_files/paper/2024/file/6b031defd145b02bed031093d8797bb3-Paper-Conference.pdf
large language models as optimizers - arXiv, https://arxiv.org/pdf/2309.03409
Large Language Models as Optimizers | Fan Pu Zeng, https://fanpu.io/summaries/2024-07-13-large-language-models-as-optimizers/
Survey and analysis of hallucinations in large language models: attribution to prompting strategies or model behavior - Frontiers, https://www.frontiersin.org/journals/artificial-intelligence/articles/10.3389/frai.2025.1622292/full
Survey and analysis of hallucinations in large language models: attribution to prompting strategies or model behavior - PubMed Central, https://pmc.ncbi.nlm.nih.gov/articles/PMC12518350/
Are Reasoning Models More Prone to Hallucination? - arXiv, https://arxiv.org/html/2505.23646v1
Let’s Think Step by Step: Advanced Reasoning in Business with Chain-of-Thought Prompting | by Jerry Cuomo | Medium, https://medium.com/@JerryCuomo/lets-think-step-by-step-advanced-reasoning-in-business-with-chain-of-thought-prompting-dd5ae8a6008
How Chain of Thought (CoT) Prompting Helps LLMs Reason More Like Humans | Splunk, https://www.splunk.com/en_us/blog/learn/chain-of-thought-cot-prompting.html
Learning to reason with LLMs | OpenAI, https://openai.com/index/learning-to-reason-with-llms/
Elevating large language model reasoning ability with auto-enhanced zero-shot prompts, https://www.aimsciences.org/article/doi/10.3934/mfc.2025017
KMMLU: Measuring Massive Multitask Language Understanding in Korean - arXiv, https://arxiv.org/html/2402.11548v2
Strengths-Leverage Chain-of-Thought: Enhancing Multimodal Reasoning with LLM and LMM - IEEE Xplore, https://ieeexplore.ieee.org/document/11028660/